查看原文
其他

巧借“他山之石”,生成信息量大、可读性强且稳定的摘要

hhhnoone 数据实战派 2022-01-14


大多数以前的 seq2seq 摘要系统纯粹依靠源文本来生成摘要,这往往并不稳定。


本文将回顾一项针对该问题进行改进的工作 ——ACL 论文 Retrieve, Rerank and Rewrite: Soft Template Based Neural Summarization。受传统基于模板的摘要方法的启发,这项研究提出利用已有的摘要作为软模板(soft template)来指导 seq2seq 模型。


具体而言,首先使用一个 IR 平台来检索适当的摘要作为候选模板(candidate template)。然后扩展 seq2seq 框架,共同进行模板重新排序(reranking)和模板感知摘要生成 (rewriting,重写)。


实验表明,在信息量方面,该方法明显优于当时的先进方法,甚至软模板本身也具有很强的竞争力。此外,外部高质量摘要的导入,提高了生成摘要的稳定性和可读性。


1、此前方法的局限性



网络信息的指数增长要求开发有效的自动摘要系统。其中的一个任务包括抽象句子摘要(sentence summarization),即生成给定句子的较短版本,同时试图保留其原始含义,可以用作设计或提炼吸引人的标题等。



自 2016 年来,seq2seq 模型受到研究界的广泛关注,seq2seq 属于 encoder-decoder 结构的一种。而 encoder-decoder 结构,基本思想就是利用两个 RNN,一个 RNN 作为 encoder,另一个 RNN 作为 decoder。encoder 负责将输入序列压缩成指定长度的向量,而 decoder 则负责根据语义向量生成指定的序列。



大多数以前的 seq2seq 模型纯粹依赖源文本来生成摘要。然而,正如许多研究报告,seq2seq 模型的性能随着生成长度的增加而迅速下降。实验还表明,seq2seq 模型有时倾向于 “失控”。例如,3% 的摘要包含少于 3 个单词,而有 4 个摘要重复一个单词甚至 99 次。这些结果在很大程度上降低了所生成摘要的信息量和可读性。此外,seq2seq 模型通常专注于按顺序复制源词,而没有任何实际的 “摘要”。


因此,基于源句的自由生成算法(free generation)对于 seq2seq 模型是不够的。



基于模板的摘要(template-based summarization)是一种传统的抽象摘要方法。通常,模板是一个不完整的句子,可以使用手动定义的规则来填充输入文本。


例如,总结股票市场行情的一个简明模板是:[地区] 股票 [开 / 收盘价][数字] 百分比 [低 / 高]。由于模板是由人编写的,因此生成的摘要通常是流畅的和信息丰富的。然而,模板的构建是非常耗时的,并且需要大量的领域知识。此外,不可能为不同领域的摘要开发所有模板。


2、Re3Sum 摘要系统



受基于检索的对话系统的启发,这项研究假设,相似句子的摘要可以提供一个参考点来指导输入的句子摘要过程,这些现有的摘要被称为软模板,因为不需要实际的规则来从它们构建新的摘要。


研究提出将 seq2seq 与基于模板的摘要方法相结合,基于这种方法开发的摘要系统称为 Re3Sum,它由三个模块组成:检索,重新排序和重写。


团队利用一个广泛使用的信息检索平台从训练语料库中找到候选的软模板。然后扩展 seq2seq 模型,共同学习模板显著性测量 (rerank) 和最终的摘要生成 (Rewrite)。采用递归神经网络 (RNN) 编码器将输入语句和每个候选模板转换为隐藏状态。在重新排序中,则根据候选模板与输入句子的隐含状态相关性来测量其信息含量。将预测信息量最高的候选模板作为实际的软模板,重写时,根据句子和模板的隐藏状态生成摘要。


Gigaword 数据集上广泛的实验表明,在信息量方面,Re3Sum 模型明显优于目前最先进的 seq2seq 模型,甚至软模板本身也表现出较高的竞争力。此外,导入高质量的外部摘要提高了生成摘要的稳定性和可读性。


具体而言,Re3Sum 摘要系统由三个模块组成:Retrieve、Rerank 和 Rewrite。给定输入句子 x,检索模块从训练语料库中筛选候选软模板 C = {ri}。对于验证和测试,认为候选模板具有最高显著性预测(highest predicted saliency)的特点。对于训练,选择 C 中具有最大真实显著性分数(actual saliency score)的软模板,它能加速收敛,显示了实验中没有明显的副作用。


方法流程图


然后,通过一个共享的编码器共同进行重排和重写。具体来说,句子 x 和软模板 r 都通过 RNN 编码器转换为隐藏状态。在 Rerank 模块中,根据 r 的隐藏状态与 x 的相关性来衡量 r 的显著性,从候选模板中挑选出最适合的软模板。在 Rewrite 模块中,RNN 解码器将 x 和 r 的隐藏状态组合起来,依靠源句子(source sentence)和软模板生成摘要 y。


2.1 检索



该模块的目的是从训练语料库中找出候选模板。假设相似的句子应该有相似的总结句型。因此,给定一个句子 x,在语料库中找出它的类比,并选择它们的摘要作为候选模板。由于数据集的大小相当大 (超过 3M),利用广泛使用的信息检索 (IR) 系统 lucene 来高效地索引和搜索。保持 lucene 的默认设置来构建 IR 系统。对于每个输入句子,选择前 30 个搜索结果作为候选模板。


2.2 共同重新排序和重写


图 2 共同重排和重写


为了进行模板感知的 seq2seq 生成 (重写),将源句 x 和软模板 r 编码为隐藏状态是必要的步骤。考虑到基于隐藏状态的匹配网络已经显示出很强的测量两篇文本相关性的能力,建议通过一个共享的编码步骤共同进行重新排序和重写。具体使用双向递归神经网络 (BiRNN) 编码器读取 x 和 r。以句子 x 为例,它的前向 RNN 在时间戳 i 时的隐藏状态可以被表示为



BiRNN 由前向 RNN 和后向 RNN 组成。假设相对应的输出为,其中索引 “−1” 表示最后一个元素。那么,一个单词的复合隐藏状态就是两种 RNN 表示的拼接,例如。源句的完整表示为。由于软模板 r 也可以看作是一个可读的简洁句子,所以使用相同的 BiRNN 编码器将其转换为隐藏状态


2.2.1 重排


检索时,根据相应索引句子与输入句子之间的文本相似性对候选模板进行排序。然而,对于摘要任务,期望软模板 r 尽可能地像实际的总结 y∗。这里使用广泛使用的摘要评价指标 ROUGE 来测量实际显著性的 s*(r,y*)。利用 x 和 r 的隐藏状态来预测模板的显著性 s。具体来说,将 BiRNN 的输出作为句子或模板的表示:


接着,使用双线性网络来预测输入句子模板的显著性。



其中 Ws 和 bs 是双线性网络的参数,加入 sigmoid 激活函数,使 s 的范围与实际显著性 s∗一致。


2.2.2 重写


Rerank 模块选择的软模板 r 已经经过 ROUGE 评估,但是 r 通常包含很多没有出现在源文本中的命名实体,因此很难确保软模板对于输入句子是可靠的。因此,利用 seq2seq 模型强大的重写能力来生成更可靠和信息更丰富的摘要。具体来说,由于系统的输入既包括句子也包括软模板,所以使用了 concatenation 函数来组合句子和模板的隐藏状态:



将合并后的隐藏状态输入到当前的注意力 RNN 解码器,在 t 位置生成解码隐藏状态:



Yt-1 是前面输出的摘要字。最后,引入了一个 softmax 层来预测当前的摘要词:


其中,Wo 是一个参数矩阵。


2.3 学习



系统中有两种类型的成本。对于重新排序,期望预测的显著性 s (r,x) 接近实际的显著性 s∗(r,y∗)。因此使用 s 和 s∗之间的交叉熵 (CE) 作为损失函数:



其中 θ 代表模型参数。对于重写,学习的目标是最大化实际总结 y∗的估计概率。采用常见的负对数似然 (NLL) 作为损失函数:



为了充分利用双方的监督,将上述两种成本合并为最终损失函数:


使用小批量随机梯度下降 (SGD) 来调整模型参数。批量大小为 64。为了增强泛化,对 RNN 层引入 dropout ,其概率 p = 0.3。初始学习率为 1,如果在验证集上的 generation loss 没有减少,则衰减 50%。



3、具体实验结果


3.1 数据集


研究采用 Gigaword 数据集进行实验。该语料库是将新闻文章的第一句和标题作为摘要进行配对,并运用启发式规则生成的。所采用的框架为 OpenNMT。



3.2 评价指标


采用 ROUGE 作为评价标准,实验结果如下图,表明 Re3Sum 相对于其他方法,性能优异。



研究还从各个方面衡量生成的摘要的语言质量,其结果如下图:



其中各 Item 含义如下:


(1)LEN_DIF:生成的摘要与实际摘要之间长度差的绝对值。用平均值 ± 标准差来说明这个项目。平均值部分反映可读性和信息量,而标准差则与稳定性有关。


(2)LESS_3:生成的摘要的数量,它包含少于三个标记。这些极其简短的摘要通常难以阅读。


(3)COPY:从源句中复制的摘要 (没有停止词) 的比例。大的复制率表明摘要系统更注重压缩而不是必需的抽象。


(4)NEW_NE:没有出现在源句子或实际摘要中的命名实体的数量。直观地说,在摘要中出现新的命名实体很可能会带来语义上的变化。使用 Stanford CoreNLP 来识别命名实体。


从 “LEN_DIF” 和 “LESS_3” 行可以看出,Re3Sum 的性能几乎与软模板的性能相同。软模板确实很好地指导了摘要的生成。与 Re3Sum 相比,在 OpenNMT 中 LEN_DIF 的标准差是其 0.7 倍,说明 OpenNMT 的工作非常不稳定。此外,OpenNMT 生成了 53 个极短的摘要,严重降低了可读性。同时,实际摘要的复制率为 36%。因此,在 OpenNMT 中,复制机制的权重严重超标。模型被鼓励根据人类编写的软模板生成,这相对减少了对源句子的复制。最后一行 “NEW_NE”,表示软模板中出现了许多新的命名实体,这使得它们与源语句非常不一致。相比之下,Re3Sum 中的这个指数与 OpenNMT 的比较接近。它突出了该 seq2seq 框架的重写能力。



3.3 软模板的作用



最后,研究软模板如何影响的模型。在开始时,团队将不同类型的软模板(上图的 Type)输入 Re3Sum 的重写模块。


所引入的软模板的类型解释如下:


(1)Random:从训练语料库中随机选择的摘要

(2)First:Retrieve 模块给出的排名最高的候选模板。

(3)Max:在 30 个候选模板中,实际 ROUGE 分数最高的模板

(4)Optimal: 现有的训练语料库中 ROUGE 得分最高的摘要

(5)Rerank:在 30 个候选模板中,预测 ROUGE 得分最高的模板。这是实际采用的软模板。


实验表明,提供的模板质量越高,ROUGE 得分越高。有趣的是,尽管随机模板的 ROUGE-2 分数为零,仍然可以用随机模板生成可接受的摘要。


Re3Sum 似乎可以自动判断软模板是否值得信任,忽略那些严重不相关的。因此,与重新排序模型的联合学习在这里起着至关重要的作用。


4 、结论



该研究提出引入软模板作为附加输入来指导 seq2seq 摘要,使用流行的 IR 平台 Lucene 检索适当的现有摘要作为候选软模板,然后扩展 seq2seq 框架,共同进行模板重排和模板感知的摘要生成。实验表明,该模型能够生成信息量大、可读性强且稳定的摘要。此外,模型在代际多样性方面显示了良好的前景。


 往期推荐 


再议 GPT-3:OpenAI 的西方算法,如何延续东方主义权力结构?

从本体论到知识图谱, 著名学者 Pascal Hitzler 长文回顾语义网 20 年发展

吴恩达团队新研究:在 ImageNet 上优化的模型,真的能更好胜任医学影像任务吗?

华为 AI 水军被推特封禁的背后,谁应为 AI 应用的边界负责?

果蝇能学会 Word Embedding 吗?丨麻省理工联合团队 ICLR 2021 论文

发明现代概率的男人:他如何发现 “不可能” 对人类事务的影响?

丨 Hinton 最新访谈丨他如何看待谷歌胶囊网络专利、神经科学以及下一代 AI?


关于数据实战派

数据实战派希望用真实数据和行业实战案例,帮助读者提升业务能力,共建有趣的大数据社区。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存